國(guó)內(nèi)的搜索引擎蜘蛛
百度蜘蛛:baiduspider
搜狗蜘蛛:sogou spider
有道蜘蛛:YodaoBot和OutfoxBot
搜搜蜘蛛: Sosospider
國(guó)外的搜索引擎蜘蛛
google蜘蛛: googlebot
yahoo蜘蛛:Yahoo! Slurp
alexa蜘蛛:ia_archiver
bing蜘蛛(MSN):msnbot
bing蜘蛛(MSN):msnbot
• User-Agent: 適用下列規(guī)則的漫游器
• Allow: 充許被抓取的網(wǎng)頁(yè)
• Disallow: 要攔截的網(wǎng)頁(yè)
Robots.txt的兩個(gè)常用符號(hào)
“*”: 匹配0或多個(gè)任意字符(也有所有的意思)
“$”:匹配行結(jié)束符。
禁止某一蜘蛛抓。
User-agent: 蜘蛛名(上面介紹得有)
Disallow: /
只充許某一蜘蛛抓。
User-agent: 蜘蛛名(上面介紹得有)
Disallow:
User-agent: *
Disallow: /
robots協(xié)議中除allow,disallow外,其擴(kuò)展協(xié)議中還有Request-rate,Crawl-delay,Visit-time等,可以通過率這些協(xié)議來限制蜘蛛訪問的頻率,訪問的時(shí)間等。
一、Crawl-delay 這個(gè)協(xié)議可以指定蜘蛛兩次抓取時(shí)間的間隔值。
語(yǔ)法:Crawl-delay:XX
"XX",是指兩間抓取的間隔時(shí)間,單位為秒。如果蜘蛛的抓取頻率太高可以指定這個(gè)值,來減輕服務(wù)器的負(fù)擔(dān)。
二、Visit-time 指定蜘蛛的訪問時(shí)間。
語(yǔ)法:Visit-time:0930-1630
開頭的文本行指定每天允許網(wǎng)絡(luò)蜘蛛采集的時(shí)間段,格式為mmss-mmss,例如0930-1630
三、Request-rate 指定采集的頻率
語(yǔ)法:Request-rate:1/5 0600-0845
指定同一個(gè)網(wǎng)絡(luò)蜘蛛每多少秒采集一次網(wǎng)頁(yè)和采集時(shí)間段,例如1/5 0600-0845。
四、禁止指定類型后綴的文件抓取
Disallow: .jpg$ 禁止抓取的格式
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
Disallow: .jpg$ 禁止抓取的格式
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
另外,在網(wǎng)頁(yè)中增加名字為“robots”的meta標(biāo)簽,也可以讓某些網(wǎng)絡(luò)蜘蛛不采集這一頁(yè)。不過,這也只是某些網(wǎng)絡(luò)蜘蛛認(rèn)同,不是大家都認(rèn)同的標(biāo)準(zhǔn)。示例如下。
<meta name="robots" content="noindex,nofollow" />
==============================================================
實(shí)例
例1.禁止所有搜索引擎訪問網(wǎng)站的任何部分
User-agent: *
Disallow: /
例2.允許所有的robot訪問 (或者也可以建一個(gè)空文件 "/robots.txt")
User-agent: *
Allow: /
另一種寫法是
User-agent: *
Disallow:
例3. 僅禁止Baiduspider訪問您的網(wǎng)站
User-agent: Baiduspider
Disallow: /
例4. 僅允許Baiduspider訪問您的網(wǎng)站
User-agent: Baiduspider
Allow: /
例5. 禁止spider訪問特定目錄
在這個(gè)例子中,該網(wǎng)站有三個(gè)目錄對(duì)搜索引擎的訪問做了限制,即robot不會(huì)訪問這三個(gè)目錄。需要注意的是對(duì)每一個(gè)目錄必須分開聲明,而不能寫成 "Disallow: /cgi-bin/ /tmp/"。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例6. 允許訪問特定目錄中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
例7. 使用"*"限制訪問url
禁止訪問/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
User-agent: *
Disallow: /cgi-bin/*.htm
例8. 使用"$"限制訪問url
僅允許訪問以".htm"為后綴的URL。
User-agent: *
Allow:/ .htm$
例9. 禁止訪問網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面
User-agent: *
Disallow: /*?*
例10. 禁止Baiduspider抓取網(wǎng)站上所有圖片
僅允許抓取網(wǎng)頁(yè),禁止抓取任何圖片。
User-agent: Baiduspider
Disallow: /.jpg$
Disallow: / .jpeg$
Disallow:/ .gif$
Disallow:/ .png$
Disallow: /.bmp$
例11. 僅允許Baiduspider抓取網(wǎng)頁(yè)和。gif格式圖片
允許抓取網(wǎng)頁(yè)和gif格式圖片,不允許抓取其他格式圖片
User-agent: Baiduspider
Allow: .gif$
Disallow: /.jpg$
Disallow:/ .jpeg$
Disallow:/ .png$
Disallow: /.bmp$
例12. 僅禁止Baiduspider抓取。jpg格式圖片
User-agent: /Baiduspider
Disallow:/ .jpg$